ความน่าจะเป็นและสถิติ: วิทยาศาสตร์แห่งความไม่แน่นอน: การนิยามความเหมาะสมในขั้นตอนการอนุมานทางสถิติ

ในดินแดนกว้างใหญ่ของข้อมูลเชิงสถิติ เราเป็นนักล่าที่แสวงหาความจริง—พารามิเตอร์จริง $\psi(\theta)$ แต่เราจะตัดสินใจได้อย่างไรว่าลูกศรใด (ตัวประมาณค่า) ดีที่สุด? ความเหมาะสม ไม่ใช่เพียงความรู้สึกคลุมเครือ; มันคือศิลปะทางคณิตศาสตร์ในการลดความสูญเสีย ในการหาตัวประมาณค่าที่ 'ดีที่สุด' เราจึงพึ่งพาค่าเฉลี่ยกำลังสอง (MSE) ซึ่งแยกออกอย่างสวยงามเป็นแรงตึงระหว่างสองแรงพื้นฐาน: ความแปรปรวน และ เบี่ยงเบน.

การกำหนดมาตรฐานทองคำ: เอ็มเอสอี

เพื่อวัดว่าการคาดเดาของเรา $T$ ห่างจากความจริง $\psi(\theta)$ แค่ไหน เราจึงนิยาม ค่าเฉลี่ยกำลังสอง (นิยาม 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

นี่คือระยะทางกำลังสองเฉลี่ยระหว่างตัวประมาณค่ากับเป้าหมาย ตัวประมาณค่าที่สมบูรณ์แบบควรจะมีค่าเอ็มเอสอีเป็นศูนย์ แต่ในโลกที่มีเสียงรบกวนแบบสุ่ม เราพยายามลดค่านี้ให้น้อยที่สุด

ทฤษฎีบท 8.1.1: โครงสร้างของความผิดพลาด

ทำไมตัวประมาณค่าถึงล้มเหลว? ทฤษฎีบท 8.1.1 ให้แผนผังแก้ไขปัญหา หาก $T$ มีโมเมนต์ลำดับที่สองจำกัด ความผิดพลาดเมื่อเทียบกับค่าคงที่ใดๆ $c$ จะถูกกำหนดโดย:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

สูตรนี้ชี้ให้เห็นว่าความผิดพลาดกำลังสองรวมทั้งหมดจะถูกลดลง เฉพาะเมื่อ เมื่อเราเลือก $c = E(T)$ ในบริบทของการอนุมาน เราตั้ง $c = \psi(\theta)$ นำไปสู่การแยกตามที่เป็นที่รู้จักกันดี:

เอ็มเอสอี = ความแปรปรวน + เบี่ยงเบน$^2$

การแลกเปลี่ยนระหว่างความแม่นยำและความถูกต้อง

ลองนึกภาพเครื่องชั่งสองตัวในห้องควบคุมคุณภาพ:

เครื่องชั่งโบราณที่แม่นยำ: มันให้ค่ามวลเดิมเสมอ (ความแปรปรวนต่ำ) แต่ตั้งค่าผิดไป 2 กรัม (เบี่ยงเบนสูง)
ภูมิปัญญาที่ผันผวน: มันถูกต้องในค่าเฉลี่ย (เบี่ยงเบนเป็นศูนย์) แต่สั่นไหวอย่างมากระหว่างการวัด (ความแปรปรวนสูง)

ทฤษฎีบท 8.1.1 ช่วยให้เราคำนวณได้อย่างแม่นยำว่าเครื่องชั่งใดให้ความผิดพลาดรวมต่ำกว่า บ่อยครั้งเราสามารถยอมรับการเบี่ยงเบนระบบเล็กน้อย (เบี่ยงเบน) ถ้ามันช่วยลดเสียงรบกวน (ความแปรปรวน) ได้อย่างมาก

ตัวอย่าง 8.1.1: ความเพียงพอและการให้ข้อมูล

ความเหมาะสมเกี่ยวข้องกับ ข้อมูล. พิจารณาชุดตัวอย่าง $S = \{1, 2, 3, 4\}$ หากผลลัพธ์ 2, 3 และ 4 มีความน่าจะเป็นเท่ากันภายใต้พารามิเตอร์ทุกแบบ พวกเขาจะมี ความน่าจะเป็นเดียวกัน. เราสามารถนิยามตัวแปรเพียงพอ $U$ ที่รวมผลลัพธ์เหล่านี้เข้าด้วยกัน โดยไม่สูญเสียความสามารถในการอนุมานที่เหมาะสม ตามที่แสดงในโปรแกรมจำลอง หาก $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$ ตัวประมาณค่าที่เหมาะสมจะมองเห็นพวกมันเป็นเหตุการณ์ที่ให้ข้อมูลเพียงเหตุการณ์เดียว

หลักการสำคัญ

ตัวประมาณค่าจะเหมาะสมที่สุดเมื่อมันลดความสูญเสียคาดการณ์ให้น้อยที่สุด สำหรับความสูญเสียแบบกำลังสอง หมายถึงการหาจุดที่ผลรวมของความแปรปรวนและเบี่ยงเบน² อยู่ที่ต่ำสุดสุด

คำถาม 1

สมมุติว่า $(x_1, ..., x_n)$ เป็นตัวอย่างจากแจกแจง $N(\mu, \sigma_0^2)$ โดยที่ $\mu$ ไม่ทราบค่า และ $\sigma_0^2$ ทราบค่า จงหาตัวประมาณค่าที่มีความเหมาะสมสูงสุด (UMVU) ของโมเมนต์ลำดับที่สอง $\mu^2 + \sigma_0^2$

T = \bar{x}^2 + \sigma_0^2(1 - 1/n)

T = \bar{x}^2 + \sigma_0^2

T = \bar{x}^2 - \sigma_0^2/n

T = \sum x_i^2 / n

คำถาม 2

ตามทฤษฎีบท 8.1.1 ค่าของ 'c' ใดที่ทำให้ค่า $E((T - c)^2)$ ต่ำที่สุด?

c = \psi(\theta)

$c = E(T)$

$c = \text{Var}(T)$

$c = 0$

คำถาม 3

ในบริบทของค่าเฉลี่ยกำลังสอง ความเบี่ยงเบนของ $T$ ถูกนิยามว่าคืออะไร?

E(T) - \psi(\theta)

$\text{Var}(T) - E(T)$

\psi(\theta) / E(T)

E(T^2) - [E(T)]^2

คำถาม 4

ในตัวอย่าง 8.1.1 ทำไม $U(s)$ ถึงเป็นตัวแปรเพียงพอ เมื่อ $U(2) = U(3) = U(4) = 1$?

เพราะความน่าจะเป็น $L(\theta|2)$, $L(\theta|3)$, และ $L(\theta|4)$ เหมือนกันสำหรับทุกค่า $\theta$

เพราะความน่าจะเป็นรวมกันได้ 1

เพราะ $s=1$ มีความน่าจะเป็นสูงสุด

เพราะชุดตัวอย่างมีจำนวนจำกัด

คำถาม 5

หากตัวประมาณค่าไม่มีเบี่ยงเบน ค่าเอ็มเอสอีจะเท่ากับ:

ความแปรปรวนของมัน

กำลังสองของเบี่ยงเบนของมัน

ศูนย์

ค่าพารามิเตอร์จริง

ท้าทาย: กฎการตัดสินใจที่เหมาะสมที่สุด

ความเหมาะสมแบบเบย์เซียนเทียบกับแบบแฟร์เควนติสต์

พิจารณาสถานการณ์ที่เราต้องการหา ตัวประมาณค่าแบบเบย์เซียน ของพารามิเตอร์ $\theta$ เมื่อใช้ ความผิดพลาดกำลังสองที่คาดหวัง เป็นเกณฑ์ประเมินประสิทธิภาพของเรา นี่เป็นการสะท้อนความสัมพันธ์ระหว่างการประมาณค่าที่ไม่มีเบี่ยงเบนอย่างบริสุทธิ์กับทฤษฎีการตัดสินใจ

คำถาม 1

จงหารูปแบบทั่วไปของตัวประมาณค่าแบบเบย์เซียน $T(s)$ ภายใต้ความสูญเสียแบบกำลังสอง อธิบายว่าทำไมตัวแปรนี้จึงถูกเลือก

วิธีการแก้:
ภายใต้ความสูญเสียแบบกำลังสอง $L(\theta, a) = (\theta - a)^2$ ตัวประมาณค่าแบบเบย์เซียน $T(s)$ คือตัวประมาณค่าที่ลดค่าความสูญเสียคาดการณ์ภายหลังให้น้อยที่สุด: $E[(\theta - a)^2 | s]$

จากทฤษฎีบท 8.1.1 เราทราบว่าสำหรับตัวแปรสุ่มใด ๆ ค่าที่ทำให้ความเบี่ยงเบนกำลังสองคาดการณ์ต่ำสุดคือค่าเฉลี่ย ดังนั้นในแจกแจงหลังจากการสังเกต ค่าที่เหมาะสมที่สุดคือ ค่าเฉลี่ยหลัง:

$T(s) = E[\theta | s]$

ตัวประมาณค่านี้ถือว่า 'เหมาะสมที่สุด' เพราะมันใช้ข้อมูลเบื้องต้นและข้อมูลที่สังเกตได้มาใช้ในการวางจุดคาดการณ์ไว้ที่จุดสมดุลของความหนาแน่นหลัง

คำถาม 2

งานสนับสนุน: ในแบบจำลองปกติ $N(\mu, \sigma_0^2)$ ที่มีความแปรปรวนทราบค่า เราได้ตัวประมาณค่าที่มีความเหมาะสมสูงสุด (UMVU) ของ $\mu^2 + \sigma_0^2$ เป็น $T = \bar{x}^2 + \sigma_0^2(1 - 1/n)$ หากเราใช้ $\bar{x}^2$ เพียงอย่างเดียว ความเบี่ยงเบนที่เกิดขึ้นจะเป็นเท่าใด?

วิธีการแก้:
เราทราบว่า $E[\bar{x}^2] = \mu^2 + \sigma_0^2/n$
พารามิเตอร์เป้าหมายคือ $\psi(\theta) = \mu^2 + \sigma_0^2$

$Bias = E[\bar{x}^2] - (\mu^2 + \sigma_0^2) = (\mu^2 + \sigma_0^2/n) - (\mu^2 + \sigma_0^2) = \sigma_0^2/n - \sigma_0^2 = \sigma_0^2(\frac{1}{n} - 1)$

สิ่งนี้แสดงให้เห็นว่าทำไมตัวประมาณค่าที่มีความเหมาะสมสูงสุด (UMVU) จึงต้องมีพจน์แก้ไขเพื่อปรับค่าคาดการณ์กลับไปยังเป้าหมายจริง